lien de la base : https://www.kaggle.com/datasets/vanpatangan/divorce-prediction

1 - Introduction

Le mariage est souvent perçu comme l’union d’une union durable, symbolisant l’engagement et la stabilité dans la vie d’un couple. Pourtant, dans de nombreux contextes, les mariages connaissent des trajectoires variées : certains dure toute une vie, d’autre se terminent plus rapidement par un divorce. Ce phénomène est particulièrement intéressant à observer lorsque celui-ci repose sur un mariage arrangé, qui repose sur des dynamiques sociales et familiales différentes de celles d’un mariage romantique. Ces unions peuvent parfois révéler des différences profondes entre les partenaires ou faire émerger des schémas de relations complexes, voire toxiques.

Dans le cadre de cette étude, nous utilisons une base de données synthétique portant sur des mariages arrangés afin d’examiner la durée de ces unions et les facteurs susceptibles d’influencer leur stabilités. L’Analyse de Survie constitue ici un outil pertinent pour modéliser le temps écoulé entre le mariage et le divorce afin de mieux comprendre la distribution temporelle des ruptures.

Cette analyse est surtout pertinente d’un point de vue sociologique, permet de mieux comprendre les dynamiques relationnelles qui conduisent à la stabilité ou à la rupture d’un mariage. Étudier la durée d’un mariage et les facteurs associés au divorce éclaire notamment des notions essentielles comme la confiance, la communication, la gestion des conflits ou l’évolution des attentes au sein du couple. Comprendre ces mécanismes aide à mieux appréhender la manière dont les individus construisent ou parfois perdent un lien conjugal durable.

Elle présente également un intérêt social plus large : identifier les facteurs de fragilité permet de sensibiliser les couples, d’améliorer les dispositifs d’accompagnement et de renforcer la prévention. L’objectif n’est pas seulement d’anticiper une rupture, mais aussi de favoriser un environnement relationnel plus sain, où les partenaires disposent des ressources pour maintenir un mariage fondé sur la confiance, la solidarité et le respect mutuel.

1.1 Contexte et justification

La stabilité conjugale constitue un enjeu important sur les plans socia, démographique et psychologique. La durée d’un mariage influence notamment le bien-être des individus, le développement des enfants, mais aussi la structuration des familles et la cohésion sociale. À l’inverse, le divorce ou la séparation engendre des conséquences multiples : coûts émotionnels, réorganisation familiale, contraintes économiques ou fragilité psychologique.

Dans le cas des mariages arrangés, ces enjeux sont accentués par des dynamiques culturelles particulières, notamment le rôle de l’entourage, l’absence de choix conjugal initial ou la pression sociale. Étudier la durée de ces unions permet donc de mieux comprendre les mécanismes spécifiques qui favorisent la stabilité ou, au contraire, précipitent la rupture.

1.2 Problématique

Quels facteurs influencent la durée d’un mariage arrangé et la probabilité de divorce ou de séparation au fil du temps ? Comment des caractéristiques individuelles, familiales ou relationnelles peuvent-elles modifier le risque de rupture ?

Quels facteurs influencent la durée de mariage ?

2 Description et préparation des données

2.1 - Presentation des variables

Notre base de données comporte 5000 observations pour 22 variables. Sur les 22 variables, nous retrouvons près de 10 variables quantitatives pour 12 qualitatives. De plus, notre base de données ne comporte aucune valeurs manquantes, ce qui réduit la complexité des prétraitements des données et permet de déterminer directement l’analyse exploratoire. Le tableau ci-dessous synthétise la présentation ainsi que les types et sous-type de variables.

📊 Tableau des variables avec code couleur
Nom_de_la_variable Description Type Sous_type
age_at_marriage Âge au mariage Quantitative Discrète
marriage_duration_years Durée du mariage Quantitative Discrète
divorced Divorce (oui/non) Qualitative Binaire
num_children Nombre d’enfants Quantitative Discrète
education_level Niveau d’éducation Qualitative Ordinale
employment_status Statut professionnel Qualitative Nominale
combined_income Revenu combiné Quantitative Continue
religious_compatibility Compatibilité religieuse Qualitative Nominale
cultural_background_match Correspondance culturelle Qualitative Binaire
communication_score Score de communication Quantitative Continue
conflict_frequency Fréquence des conflits Quantitative Discrète
conflict_resolution_style Style de résolution de conflit Qualitative Nominale
mental_health_issues Problèmes de santé mentale Qualitative Binaire
financial_stress_level Niveau de stress financier Quantitative Continue
infidelity_occurred Infidélité survenue Qualitative Binaire
counseling_attended A suivi un counseling Qualitative Binaire
social_support Soutien social Quantitative Continue
shared_hobbies_count Nombre de hobbies partagés Quantitative Discrète
marriage_type Type de mariage Qualitative Nominale
pre_marital_cohabitation Cohabitation avant mariage Qualitative Binaire
domestic_violence_history Historique de violence domestique Qualitative Binaire
trust_score Score de confiance Quantitative Continue

2.2 - Boxplot des données Quantitatives & Histogrammes

2.3 - Histogrammes des données Qualitatives

3 - Analyse de survie

Notre base de données comporte deux variables temporelles intéressantes à étudier :

  • marriage_duration_years : Mesure la Durée du mariage de l’individu
  • age_at_marriage : Mesure l’âge où l’individu s’est marié

Nous verrons donc une double analyse entre sur la

📊 Interprétation et définitions des fonctions de survie
Fonction Définition Durée_du_mariage Âge_au_mariage
\(S(t)\) \(S(t) = P(T \geq t) = e^{-H(t)}\) Probabilité que le mariage dure ≥ t Probabilité de rester marié si marié à l’âge t
\(H(t)\) \(H(t) = \int_0^t h(u)\,du = -\ln S(t)\) Risque cumulé de divorce jusqu’à t Risque cumulé de divorce selon âge au mariage ≤ t
\(h(t)\) \(h(t) = -\dfrac{S'(t)}{S(t)}\) Risque instantané de divorce à t Risque instantané de divorce pour un âge de mariage t

3.1 - Fonction de survie S(t)

3.1.1 Estimateur sans données de censure

Estimateur empirique de la fonction de survie :

\[ \hat{S}(t) = \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{1}_{\{t_i > t\}} \]

  • \(n\) = nombre total d’observations
  • \(t_i\) = temps jusqu’à l’événement pour l’individu \(i\)
  • \(\boldsymbol{1}_{\{t_i > t\}}\) = indicateur qui vaut 1 si l’individu n’a pas encore eu l’événement à \(t\), 0 sinon

Cet estimateur correspond simplement à la proportion d’individus encore mariés au temps \(t\).
Il suppose qu’il
n’y a aucune donnée censurée**, c’est-à-dire que tous les individus ont eu l’événement observé.


3.1.2 Estimateur avec censure (Kaplan-Meier)

Lorsque certains individus quittent l’étude avant l’événement (par exemple, encore mariés à la fin de l’observation),
on introduit la variable de censure :

\[ \delta_i = \begin{cases} 1 & \text{si l'événement (divorce) est observé pour } i \\ 0 & \text{si l'observation est censurée} \end{cases} \]

On note \(T_{1} \le T_{2} \le \dots \le T_{n}\) les temps d’observation triés et \(\delta_i\) les événements correspondants.

Alors, l’estimateur de Kaplan-Meier s’écrit :

\[ \hat{S}(t) = \prod_{T_i \le t,\, \delta_i = 1} \left( 1 - \frac{1}{\sum_{j = 1}^{n} 1_{T_j \ge T_i}} \right) \]

ou, de manière équivalente, en notant \(d_i\) le nombre d’événements à \(T_i\)
et \(n_i\) le nombre d’individus “à risque” juste avant ce temps :

\[ \hat{S}(t) = \prod_{T_i \le t} \left( 1 - \frac{d_i}{n_i} \right) \]


3.2 - Fonction de survie : Kaplan-Meier

3.3 Nelson-Aalen

3.3.1 Estimateur Nelson-Aalen

3.4 2.1 Estimateur de Nelson-Aalen

L’estimateur de Nelson-Aalen permet d’estimer le risque cumulatif \(\Lambda(t)\) dans le cadre de données censurées.

Soit :

  • \(X\) : temps jusqu’à l’événement d’intérêt (ex. divorce)
  • \(C\) : temps de censure (ex. fin de l’étude ou perte de suivi)
  • \(T = \min(X, C)\) : temps observé pour chaque individu

On définit :

  • \(H(t) = P(T > t) = P(X > t, C > t) = P(X > t)P(C > t)= S(t) G(t)\)\(G\) est la fonction de survie de la censure \(C\)

  • \(H_1(t) = P(T > t, \delta = 1) = P(X > t, C > X)\)

On peut écrire \(H_1(t)\) en fonction de la densité \(f(u)\) de \(X\) et de \(G(u)\) :

\[ \begin{aligned} H_1(t) &= P(X > t,\, C > X) \\ &= E\big[ \mathbf{1}_{\{X > t\}} \cdot \mathbf{1}_{\{C > X\}} \big] \\[6pt] &= E\Big[ \mathbf{1}_{\{X > t\}} \, E\big[\mathbf{1}_{\{C > X\}}\mid X\big] \Big] \\[6pt] &= E\big[ \mathbf{1}_{\{X > t\}} \, P(C > X \mid X) \big] \\[6pt] &= E\big[ \mathbf{1}_{\{X > t\}} \, G(X^-) \big] \\[6pt] &= \displaystyle \int_{t}^{\infty} G(u^-) \, f(u)\,du \\[6pt] &= - \displaystyle \int_{t}^{\infty} G(u^-) \, dS(u) \end{aligned} \]

On obtient donc :

\[ dH_1(t) = G(t^{-})dS(t) \]

Et donc par le temps on obtient :

\[ \frac{dH_1(t)}{dt} = \frac{G(t^{-})dS(t)}{dt} \]

ce qui donne mathématiquement :

\[ H_1'(t) = G(t^{-})S'(t) \]

Ainsi on a :

\[ \begin{aligned} \hat{H}_{NA}(t) &= \displaystyle \int_{0}^{t} h(u) \, du \\[2mm] &= \displaystyle \int_{0}^{t} -\frac{S'(u)}{S(u)} \, du \\[2mm] &= \displaystyle \int_{0}^{t} -\frac{\frac{H_1(u)}{G(u^{-})}}{\frac{H(u)}{G(u)}} \, du \\[2mm] &= \displaystyle \int_{0}^{t} -\frac{H_1(u)}{H(u)}\frac{G(u)}{G(u^{-})} \, du \\[2mm] &= \displaystyle \int_{0}^{t} -\frac{H_1(u)}{H(u)} \, du \end{aligned} \]

Un estimateur naturel s’obtient en remplaçant les fonctions \(H\) et \(H_1\) par leurs équivalents empiriques (calculables car les variables \(T\) et \(\delta\) sont observées):

\[ \hat{H}(u) = \frac{1}{n} \sum_{i=1}^{n} \mathbf{1}_{\{T_i > u\}}, \quad \hat{H}_1(u) = \frac{1}{n} \sum_{i=1}^{n} \mathbf{1}_{\{T_i > u, \delta_i = 1\}} \]

L’estimateur de Nelson-Aalen est alors donné par :

\[ \hat{H}_{NA}(t) = \displaystyle \int_{0}^{t} - \frac{\displaystyle \sum_{i=1}^{n} \mathbf{1}_{\{T_i > u, \delta_i = 1\}}}{\displaystyle \sum_{i=1}^{n} \mathbf{1}_{\{T_i > u\}}} \, du \]

Comme \(T\) est à temps discret, l’intégrale devient une somme sur les temps d’événement distincts , et on définit alors pour chaque temps d’événement \(t_i\) :

\[ d_i = \sum_{j=1}^{n} \mathbf{1}_{\{T_j = t_i, \delta_j = 1\}}, \quad n_i = \sum_{j=1}^{n} \mathbf{1}_{\{T_j \ge t_i\}}. \]

Ce qui donne :

\[ \hat{H}_{NA}(t) = \sum_{t_i \le t} \frac{d_i}{n_i}. \]


Une autre façon de calculer la fonction de risque cumulée et de passer par l’estimateur de beslow.

Rappel : l’estimateur de Kaplan–Meier de la fonction de survie s’écrit, pour des temps d’événement distincts \(t_1<\dots<t_m\), \[ \hat{S}(t)=\prod_{t_i\le t}\left(1-\frac{d_i}{n_i}\right), \]\(d_i\) est le nombre d’événements au temps \(t_i\) et \(n_i\) le nombre d’individus à risque juste avant \(t_i\).

En utilisant la relation \[ H(t)=-\log S(t), \] on obtient l’estimateur de Breslow du risque cumulé : \[ \hat{H}_{\text{Breslow}}(t) = -\log\big(\hat{S}(t)\big) = -\log\!\left(\prod_{t_i\le t}\left(1-\frac{d_i}{n_i}\right)\right) = -\sum_{t_i\le t} \log\!\left(1-\frac{d_i}{n_i}\right). \]

Pour des fractions \(d_i/n_i\) petites, on utilise l’approximation \(\log(1-x)\approx -x\) pour \(x\) proche de \(0\). Ainsi \[ \sum_{t_i\le t}\log\!\left(1-\frac{d_i}{n_i}\right) \approx \sum_{t_i\le t}\frac{d_i}{n_i}, \] Ce qui montre que l’estimateur de Breslow est proche (et asymptotiquement équivalent) à l’estimateur de Nelson–Aalen \(\hat{H}_{NA}(t)=\sum_{t_i\le t}\dfrac{d_i}{n_i}\) lorsque les sauts sont petits.

📊 Méthodes d’estimation du risque cumulatif : Nelson-Aalen et Breslow
Méthode Formule Description
Nelson-Aalen \(\hat{H}_{NA}(t) = \sum_{t_i \le t} \dfrac{d_i}{n_i}\) Estimateur non paramétrique basé sur les événements observés et le nombre de sujets à risque.
Breslow \(\hat{H}_{\text{Breslow}}(t) = - \sum_{t_i \le t} \log\left(1 - \dfrac{d_i}{n_i}\right)\) Estimateur du risque cumulatif dérivé de \(H(t) = -\log(S(t))\) via l’estimateur de Kaplan-Meier.

3.4.1 Estimateur de Nelson-Aalen sans et avec censure

3.4.2 Estimateur de Breslow sans et avec censure